In-Context LoRA
https://gyazo.com/509b1e7f6ba8c02707a293e10dc44dd2
一貫性のあるマルチパネル画像と、複数のパネルをまとめて説明するキャプションを付けたデータセットでLoRAを作ることで、この特性を安定して引き出す
e.g.
portrait-photography.safetensors
https://gyazo.com/be792a320f080e6c880900d6e9c52068
font-design.safetensors
https://gyazo.com/935329eda3ee4dae0465cd464aaa8e63
https://gyazo.com/eafe99f6567dae4db4f634faab6e7d7d
https://gyazo.com/4e737fdc82b57dd96a85639fa16ab49c
code:prompt
MOVIE-SHOTS Set in the early 2010s, this inspiring tale of growth follows <Anna>, a 30-something woman whose life takes an unexpected turn in the world of fashion. SCENE-1 captures <Anna> from outside the restaurant window as she works, her appearance unkempt with disheveled hair, clearly unconcerned with her looks, SCENE-2 leading to a life-changing moment when an elderly man in a sleek suit, dining as a customer, approaches her with an invitation to join a fashion brand, SCENE-3 portraying <Anna> as the same man mentors her on dressing with sophistication, gradually transforming her style and confidence, SCENE-4 concluding with <Anna> in Paris, commanding the backstage of a fashion show, confidently giving direction to models and junior staff, fully embodying her new role. サンプルをテンプレートとして、こんなシナリオに書き直してくれってChatGPTに投げると作ってくれるnomadoor.icon
Visual Identity Transferを使えば、ロゴとして漢字を書いたText画像渡して表示できるかなと試したけど惜しいけど安定しない感じになった…morisoba65536.icon
こんな感じでいいのかな…?nomadoor.icon
https://gyazo.com/b9ed99562638aa4f13a52f795b71e622
i2iだと安定するんだ…morisoba65536.icon
t2iでの失敗例
https://scrapbox.io/files/6781ef27e3ff159376cef55d.webp
LoRAはあくまでFluxの力を安定させてるだけなので、プロンプトが結構大事な気がするnomadoor.icon
https://gyazo.com/fd651becdb5768813ca7f6301e4dbf76https://gyazo.com/0b612db7d96d0bb13e650d1d34b1dc86
上と同じくinpaintingだけど、プロンプトをちゃんと修正した右側は綺麗に転送できてる
code:左の画像プロンプトの和訳
一対の画像は、シンプルなロゴとその実際の使用例を強調しています。IMAGE1 白い背景に黒い文字。IMAGE2 このロゴは、女性の頬に黒と白のタトゥーとして適用されています。 code:右の画像プロンプトの和訳
一対の画像は、シンプルなロゴとその実際の使用例を強調しています。IMAGE1 黒い背景に青い縁取りがされた赤い文字。IMAGE2 このロゴは、女性の黒いTシャツの胸部分にプリントとして適用されています。 プロンプト力が足りなかったか…morisoba65536.icon
崩れてた理由がわかった、「画像をマスクに変換」をredにしてたので赤い文字が背景として読み込まれてしまっていた…
だめだグリーンバック化してもやっぱり崩れる…一度出力した画像にインペイントの方がいいのかもしれん…morisoba65536.icon
https://scrapbox.io/files/6782b8f4d561dd59690b098f.webp
このworkflow見たことあったけれどようやく理解できたnomadoor.icon
inpaintingと同じだけど、右半分全部マスクで埋めてるだけか
https://gyazo.com/c1411a1b0a867b6115b09d4de2096187
右半分を画像の代わりにempty imageと同じサイズのマスクに変更
モデルをノーマルのflux.1-devに変更して、プロンプトも全身描くように変更
確かにちょっと崩れちゃうな
冷静に考えると「元画像を横に2倍に拡大」→「拡大した先をマスクしてインペイント」なのでFillなどのインペイントモデルでないとうまく動作しない可能性が思いついた…なので任意のモデル使いたい時は公式Wikiのインペイントモデルの能力をマージするとかがいるのかもmorisoba65536.icon と仮説を立てましたがFillモデルだと普通にノイズのままだったのでi2iに比べるとt2iで文字レベルの細かいものは難しい、と考えるほうがいいかも(サメの絵文字🦈一文字とかならなんとかなる)
もしくはうまく出なければそのときにitiに切り替えるか…(最初のt2iはアタリと割り切る)
関連